首页> 外文OA文献 >Gradient-based Reinforcement Planning in Policy-Search Methods
【2h】

Gradient-based Reinforcement Planning in Policy-Search Methods

机译:政策检索方法中基于梯度的强化规划

摘要

We introduce a learning method called ``gradient-based reinforcementplanning'' (GREP). Unlike traditional DP methods that improve their policybackwards in time, GREP is a gradient-based method that plans ahead andimproves its policy before it actually acts in the environment. We deriveformulas for the exact policy gradient that maximizes the expected futurereward and confirm our ideas with numerical experiments.
机译:我们介绍一种称为``基于梯度的强化计划''(GREP)的学习方法。与传统的DP方法会在时间上向后改进策略,GREP是一种基于梯度的方法,可以在环境实际起作用之前预先计划并改进其策略。我们为精确的政策梯度得出公式,以使预期的未来回报最大化,并通过数值实验确认我们的想法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号